Science Advances：通过深度学习预测单个细胞中的转录因子结合_研究进展_最新资讯

日期：2020/12/18

杂志：Science Advances
杂志影响因子：13
原文标题：Predicting transcription factor binding in single cells through deep learning
原文链接：https://advances.sciencemag.org/content/6/51/eaba9031
来源：美国加州大学-尔湾

下载.jpeg

摘要

转录因子（TFs）的全基因组结合谱对理解生物学过程至关重要。尽管已经开发了评估细胞群内结合谱的技术，但在单细胞水平上确定它们的方法仍然遥不可及。本研究介绍了scFAN（单细胞因子分析网络），这是一种深度学习模型，可预测单个细胞中全基因组的TF结合谱。scFAN经过全基因组批量测定的预训练，可用于转座酶可及的染色质测序（ATAC-seq），DNA序列和染色质免疫沉淀测序（ChIP-seq）数据，并使用单细胞ATAC-seq预测单个细胞中的TF结合。scFAN能够基于染色质可及性概况发现和研究细胞身份和异质性。

内容

分子生物学中，转录因子，一般是指能够结合在某些基因上游特异的核苷酸（DNA）序列上的蛋白质，这些蛋白质能够起到调节基因转录的作用，比如能够调控核糖核酸（RNA）聚合酶与DNA模版的结合。科研人员认为，转录因子是对基因组的直接阐释，是执行DNA解码序列的第一步，所以确定DNA结合的motif通常是详细阐释转录因子功能的第一步，鉴定潜在的结合位点为进一步分析提供了途径。

早在20世纪80年代，就描述了真核生物中的主要TF家族，如C2H2-锌指（ZF），同源域，碱性螺旋 - 环 - 螺旋（bHLH），碱性亮氨酸拉链（bZIP）和核激素受体（NHR）。如今大多数已知和推定的TF已经通过先前表征的DNA结合结构域（DBD）的序列同源性来鉴定，这也用于对TF进行分类。在仅基于与DBD的同源性匹配来推断功能时必须小心，因为并非所有结构域都一定会结合特定DNA序列。2009年的人类转录因子库涵盖了535个人的转录因子，并描述了所推测的DBD。2018年来自加拿大多伦多大学的Samuel Lambert等人通过整合来自以下几个方面的推定TF列表手动检查了2765种蛋白质最后整理了一个新的TF数据库，其中涵盖了1639个已知的和可能的人类TF，以及结构的DNAmotif（http://humantfs.ccbr.utoronto.ca）。

转录因子（TFs）与“开放的”启动子和增强子区域结合，通过协助或抑制RNA聚合酶的结合，它们在调节基因表达中起着关键作用。不同的结合事件导致整个细胞群体中基因表达的异质性，这可能导致不同的细胞身份。因此，TF结合图谱对于理解基因调控机制以及将细胞分化为不同的亚群至关重要。通常采用ATAC-seq为识别开放的染色质区域，如果这些区域与蛋白质结合位点重叠，则可用于推断TF结合情况。

深度学习（deep learning）是机械学习的分支，是一种人工神经网络为框架，对资料进行表征学习的算法。

近年来，深度学习技术，例如卷积神经网络（CNN），已成为发现TF绑定模式的强大工具，FactorNet和deepATAC之类的方法利用基于深度学习的方法来识别开放的染色质区域，并使用大量染色质可访问性数据推断TF结合位置。但是，所有这些方法都进行了群体水平的TF结合预测，因此没有考虑细胞群体内的异质性。单细胞表观基因组测序的最新进展允许在单细胞水平上表征染色质的可及性。例如，通过scATAC-seq探测单个细胞内的染色质可及性已成为可能，从而可以识别顺式和反式调节子，并研究这些调节子如何在不同细胞中协同作用以影响细胞命运。像在所有单细胞测序技术中一样，仅使用scATAC-seq数据具有挑战性，因为它们既稀疏又嘈杂。单细胞因子分析网络（scFAN）方法减轻了scATAC-seq的固有稀疏性和噪声约束。 scFAN提供了一种有效的工具来预测单个细胞的不同TF谱，可用于分析单细胞表观基因组学和预测细胞类型。

scFAN概况

（A）多细胞ATAC-seq，可映射性数据以及通过ChIP-seq数据识别的DNA区域将传递到深度学习“预训练模型”。然后，将经过训练的模型用于基于scATAC-seq所调用的DNA区域，可映射性数据以及scATAC-seq和大量ATAC-seq的组合来预测TF结合谱。通过将每个细胞中前2个最频繁的TF出现的次数相加，从预测中得出TF“活动得分”。根据这些活动评分，scFAN会聚类细胞。（B）圆形条形图显示了来自三个不同细胞系的预训练模型中所有TF的AUC和auPR值。

总结

研究人员开发了一种分析流程，不仅可以在整体细胞水平上预测TF结合，而且可以预测单个细胞内特定基因组区域的结合。 scFAN是基于深度学习的单细胞分析管道，可通过利用大量ATAC-seq数据来减轻分析scATAC-seq的基本困难。从整体上看，scFAN可以比其他深度学习模型更准确地预测TF结合基序。在单细胞水平上，即使在遗传相似的细胞中，scFAN也能可靠地识别细胞身份。在染色质可及性水平上检测细胞身份可以更真实地鉴定不同的细胞类型。 scFAN在处理多个样品的批次效应方面也很有效。

转录因子（TFs）与“开放的”启动子和增强子区域结合，通过协助或抑制RNA聚合酶的结合，它们在调节基因表达中起着关键作用。不同的结合事件导致整个细胞群体中基因表达的异质性，这可能导致不同的细胞身份。因此，TF结合图谱对于理解基因调控机制以及将细胞分化为不同的亚群至关重要。单细胞因子分析网络（scFAN）方法减轻了scATAC-seq的固有稀疏性和噪声约束。 scFAN提供了一种有效的工具来预测单个细胞的不同TF谱，可用于分析单细胞表观基因组学和预测细胞类型。

参考：

https://cloud.tencent.com/developer/article/1376739

https://www.viatech.com.cn/VIA-Perspectives/201/48.html

科研星球

Science Advances：通过深度学习预测单个细胞中的转录因子结合

标签